Exploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe

نویسندگان

  • Edgard Chammas
  • Chafic Mokbel
  • Laurence Likforman-Sulem
چکیده

RÉSUMÉ. Les documents manuscrits arabes présentent des défis spécifiques pour la reconnaissance du fait de la nature de l'écriture cursive et d'autres facteurs, comme la taille de l'écriture. Une des plus grandes bases étiquetées des documents manuscrits arabes, la base de données NIST­OpenHaRT inclut de grandes variabilités dans la taille du texte inter et intra mots et lignes. Nous proposons plusieurs approches pour faire face à ces variations lors des phases d'apprentissage et de reconnaissance. Nos premières expériences montrent que la reconnaissance est largement affectée par la taille d'écriture et offrent ainsi une voie pour l'amélioration des performances en tenant compte de l'échelle d'écriture. En phase de reconnaissance, nous avons redimensionné chaque donnée de test à plusieurs tailles prédéfinies, puis nous avons combiné les scores de reconnaissance associés à chacune des tailles. Cette approche a permis des gains notables de performance. De plus, nous avons intégré des données artificiellement redimensionnées pour adapter les modèles HMM à différentes échelles. Nous avons aussi obtenu des gains de performance par deux méthodes différentes de combinaison (ROVER, treillis) des résultats des modèles adaptés. Nous fournissons des résultats de reconnaissance montrant les avantages de l'exploitation de la taille d'écriture.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe

Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....

متن کامل

La Théorie de la Résonance Adaptative et les Moments de Zernike pour la Reconnaissance de Mots Arabes Manuscrits

Résumé. La reconnaissance de l'écriture arabe manuscrite est un domaine de recherche relativement récent et qui a connu ces dernières années des progrès remarquables. Il présente un intérêt indéniable dans l’accomplissement de tâches considérées fastidieuses dans certains domaines comme le tri postal, la lecture de chèques bancaires, la lecture des bordereaux, etc. Ce papier présente la concept...

متن کامل

Apprentissage supervisé pour la catégorisation de documents manuscrits en-ligne

RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne e...

متن کامل

Etude et Evaluation de la Di-Syllabe comme Unité Acoustique pour le Système de Synthèse Arabe PARADIS

L’étude que nous présentons dans cet article s’inscrit dans le cadre de la réalisation d’un système de synthèse de la parole à partir du texte pour la langue arabe. Notre système PARADIS est basé sur la concaténation des di-syllabes avec TD-PSOLA comme technique de synthèse. Nous présentons dans cet article l’intérêt du choix de la di-syllabe comme unité de concaténation pour le synthétiseur et...

متن کامل

Parole et Traduction Automatique: Le Module de Reconnaissance RAPHAEL

Pour la traduction de parole, il est n6cessaire de disposer d'un syst~me de reconnaissance de la parole spontan6e grand vocabulaire, tournant en temps r6el. Le module RAPHAEL a 6t6 con~u sur la plateforme logicielle de JANUS-III d6velopp6e au laboratoire ISL (Interactive Systems Laboratory) des universit6s Karlsruhe et Carnegie Mellon. Le corpus BREF-80 (textes lus extraits du Journal Le Monde)...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016